Prosper贷款 by Amy Tao(陶蕾)

## [1] "en_US.UTF-8/en_US.UTF-8/en_US.UTF-8/C/en_US.UTF-8/C"

单变量绘图选择

## [1] 81

数据集共有81个变量

##              Cancelled             Chargedoff              Completed 
##                      5                  11992                  38074 
##                Current              Defaulted FinalPaymentInProgress 
##                  56576                   5018                    205 
##   Past Due (>120 days)   Past Due (1-15 days)  Past Due (16-30 days) 
##                     16                    806                    265 
##  Past Due (31-60 days)  Past Due (61-90 days) Past Due (91-120 days) 
##                    363                    313                    304

LoanStatus的分布可以看出借款项目主要集中在四种状态:chargedoff, Completed, Current & Defaulted.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   12.00   36.00   36.00   40.83   36.00   60.00

借款周期Term是离散数据,共有三个值:12,36,60,其中借款天数在36天的借款记录是最多的。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
## 0.00653 0.15629 0.20976 0.21883 0.28381 0.51229      25

借款年度复利利息BorrowerAPR的范围在0.05~0.4之间。

EstimatedEffectiveYield是贷款人的收益,收益范围在0.05~0.3的范围内。但是有离群值显示收益为负,将进一步分析。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##   0.005   0.042   0.072   0.080   0.112   0.366   29084

EstimatedLoss分布图是向右倾斜的,采用log去掉长尾。

EstimatedLoss是在chargeoff上的主体资金的损失,这个数据在右侧倾斜,通过log将数据进行转换后接近正态分布。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##   1.000   3.000   4.000   4.072   5.000   7.000   29084

ProsperRating的分布中,评分在3~5分之间是最多的,最低分1和最高分7较少。

ProsperRating(alpha)的分布与ProsperRating(Numeric)的结果类似,评分最高AA和最低HR较少。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##    1.00    4.00    6.00    5.95    8.00   11.00   29084

ProsperScore是客户风险评分,大部分客户的风险评分中等在4~8之间,其中1为风险最大,值较小。

LP_InterestandFees向右倾斜,将用log去掉长尾。

LP_InterestandFees通过log去掉长尾,结果接近正态分布。

LP_ServieFees绝大多数都在200元以下。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.00000 0.01000 0.01000 0.01006 0.01000 0.05500

Service rate是BorrowerRate和LenderYield的差值,service rate是平台跟贷款人收取的,可以看到平台收费费率绝大多数在0.01。

单变量分析

你的数据集结构是什么?

这个数据集共有81个变量。81个变量中,分组大致如下:

1.借贷平台借款人,贷款人,平台相关费率信息

2.借款人信息:雇佣情况,信用情况,收入情况。

3.Prosper历史借款相关信息。

4.chargeoff前借还款及费率信息 。 5.贷款人信息。 我将关注借款平台相关费率信息。

其他观察:

  1. Term呈离散分布,主要有12,36,60三种选择。借款36天的人是最多的。

  2. ProsperRating共分7个档次,其中4档最多,7档最少

  3. BorrowerAPR的范围集中在0.05~0.4,小于0.05的值也有,但是很少。

  4. EstimatedEffectiveYield的范围集中在0.05~0.3

  5. EstimatedLoss的范围集中在0~0.2,有离散值在0.25和0.35附近。

你的数据集内感兴趣的主要特性有哪些?

因为想要了解借款平台的费率信息,我感兴趣的主要特性是借款人的BorrowerAPR/BorrowerRate,贷款人的收益情况EstimatedEffectiveYield和EstimatedLoss,平台的收益情况Service rate。

你认为数据集内哪些其他特征可以帮助你探索兴趣特点?

数据集中的Term, LoanStatus, ProsperRating,ProsperScore会对数据探索有帮助。

根据数据集内已有变量,你是否创建了任何新变量?

我创建了一个变量:Service rate = BorrowerRate-LenderYield, 从直方图可以看出,绝大多数贷款的service rate是0.01. EstimatedReturn和BorrowerRate比例,可以看到对于大部分的借款来说,贷款人的收益占到借款人支付利息的

在已经探究的特性中,是否存在任何异常分布?你是否对数据进行一些操作,如清洁、调整或改变数据的形式?如果是,你为什么会这样做?

EstimatedLoss的分布是向右倾斜的,使用log将这个特征的分布转换。可以看到转换后的分布接近于正态分布。 LP_InterestandFees的分布是向右倾斜的,使用log将这个特征的分布转换。可以看到转换后的分布接近于正态分布。

双变量绘图选择

## [1] "BorrowerAPR"             "EstimatedEffectiveYield"
## [3] "EstimatedLoss"           "ProsperRating..numeric."
## [5] "ProsperScore"

查看数据分组第一组:借贷平台借款人,贷款人,平台相关费率信息的数据相关度,寻找下一步分析的方向。结果发现BorrowerAPR和EstimatedLoss的相关度达0.954,为什么EstimatedLoss即因chargedoff损失的主体资金与APR有关?

## 
##  Pearson's product-moment correlation
## 
## data:  pld$BorrowerAPR and pld$EstimatedLoss
## t = 881.84, df = 84851, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.9488713 0.9501952
## sample estimates:
##       cor 
## 0.9495375

EstimatedLoss和APR主体是线性相关的,但是散点图中有很明显的横条,见在接下里的分析中尝试查看横条的形成原因。

EstimatedLoss和ProsperRating的boxplot中,可以看到AA即评级最高者,EstimatedLoss最低,而HR即评级最低者,EstimatedLoss最高,而且有超出最高值很多的离群值。

APR和ProsperRating的boxplot分析中可以看到评级最高者APR低,反之亦然。

从以上boxplot的分析结果可以看到,EstimatedEffectiveYield在大部分评级下都大于0,只有在评级HR时,有很多的离群值在最小值之下。说明HR评级的用户还款的问题让EstimatedEffectiveYield的值偏低。

## [1] "LP_CustomerPayments"   "LP_ServiceFees"        "LP_InterestandFees"   
## [4] "LP_GrossPrincipalLoss"

分析第四个分组:chargeoff前借还款及费率信息数据的相关性。发现LP_ServiceFee和LP_InterestandFees的相关性达到0.851.

## 
##  Pearson's product-moment correlation
## 
## data:  pld$LP_InterestandFees and pld$LP_ServiceFees
## t = -575.44, df = 113940, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.8640343 -0.8610613
## sample estimates:
##        cor 
## -0.8625553

LP_ServiceFee和LP_InterestandFees的散点图体现了这种相关。相关系数为-0.86,为负相关,因为Service fees在数据中显示为负值。

双变量分析

探讨你在这部分探究中观察到的一些关系。这些感兴趣的特性与数据集内其他特性有什么区别?

我观察到BorrowerAPR和EstimatedLoss的相关性很高,有0.954。特别的是,散点图中EstimatedLoss有一条条明显的横线(EstimatedLoss在0.1,0.15,0.2的位置)与BorrowerAPR没有线性相关,我将对这个数据进行进一步探索。

你是否观察到主要特性与其他特性之间的有趣关系?

1.ProsperRating评分越高EstimatedLoss率越低,从箱线图可以看到HR的EstimatedLoss最高,而且有很高的离群值。

2.ProsperRating与BorrowerAPR,可以看到Borrower interest rate是根据借款人的评分等级浮动的,评分等级越高,interest rate越低。

3.LP_ServiceFees和LP_InterestandFees的相关系数有0.851,为强相关,可以看到当借款人支付了借款利率,Prosper平台能更有效地收取service rate.

你发现最强的关系是什么?

我发现最强的关系是BorrowerAPR和LenderYield之间的关系,有0.99.这符合常识,借款人支付的利息越多(BorrowerAPR是利息年度百分率,复利利息),贷款人得到的yield越多。

多变量绘图选择

BorrowerAPR和EstimatedLoss散点图中加入ProsperScore(即customer risk score),可以看到ProsperScore的值越低,即Prosper平台定义为高风险的用户,损失会更高——甚至有0.3之上的值。

BorrowerAPR和EstimatedLoss散点图中加入ProsperRating,可以看到ProsperRating等级越高,对应的APR越低,同时产生的loss也越少。0.15以上的loss大部分是由HR评级的借款人产生的。

BorrowerAPR和EstimatedLoss散点图中加入loanstatus,可以看到loanstatus是chargedoff和completed的选项形成了散点图中的横条。因为只有一笔贷款完成了或是被定义为chargedoff,Prosper平台才会计入loss

LP_ServiceFees和LP_InterestandFees中加入ProsperRating(Alpha)特性,发现评级越高的颜色区域,对应的interest fee越低,这数据的分析结论与之前在BorrowerAPR和ProsperRating(Alpha)的分析结果是一致的。

多变量分析

探讨你在这部分探究中观察到的一些关系。通过观察感兴趣的特性,是否存在相互促进的特性?

  1. 在BorrowerAPR和EstimatedLoss中加入loanstatus特性,可以观察到BorrowerAPR和EstimatedLoss散点图中的横条来自于Completed和chargedoff情形,即贷款条目关闭后确定的loss。

  2. 在LP_ServiceFees和LP_InterestandFees中加入ProsperRating(Alpha)特性,发现评级越高的颜色区域,对应的interest fee越低,这数据的分析结论与之前在BorrowerAPR和ProsperRating(Alpha)的分析结果是一致的。

这些特性之间是否存在有趣或惊人的联系呢?

BorrowerAPR和EstimatedLoss加入ProsperRating(Alpha)特性,会发现评分越低的用户APR越高,即借款的利率越高,出现逾期,就会出现无法还款的情况。

选项:你是否创建过数据集的任何模型?讨论你模型的优缺点。


定稿图与总结

绘图一

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.00000 0.01000 0.01000 0.01006 0.01000 0.05500

描述一

Prosper作为一个中间人连接借款人和贷款人,所收取的Service Rate绝大多数在0.01.

绘图二

描述二

BorrowerAPR和EstimatedLoss线性相关,而BorrowerAPR根据Prosper的评级,分值高则interest rate低,反之亦然。

绘图三

描述三

BorrowerAPR和EstimatedLoss大体线性相关,但在散点图中出现了很多横条,加入LoanStatus特性,发现这些横条是数据集中LoanStatus为Completed(少部分为chargedoff),即在这两种情况下,Prosper会统计loss进行计算。

反思

遇到的困难:

  1. 一开始做分析时,未绘制一幅数据探索的地图,用来记录分析过程,不如哪条路已经走过了,结果如何。同时没有将数据做大致的分组(组内的数据是具有相关性的),而是从81个变量中随意挑选特性开始进行分析。基于以上两个因素,分析过程的推进很困难,做了很多组(单一变量,双变量,多变量)分析,但分析的结果是碎片,没有形成系统,或逐步深入层层推进,或相互验证。

  2. 对于这组跟借贷款相关的数据集中,有很多的专业术语,分析需要建立在对专业术语有理解的情形下才能进行,在一开始的分析中,我试图避开哪些不理解的特性,只对理解的特性进行分析,这也是花了很长时间没有找到那个可以深入分析的特性。

取得的成功: 基于以上的经验,我绘制了分析的地图,记录分析过的参数及结果,来辅助分析过程,避免分析到了一个阶段,忘记了为什么要这样做,以前都做过哪些分析。同时,在做了多组变量分析后,对每一组都尝试增加其他变量查看结果,带着问题深入分析过程。

针对本项目为未来工作提供了至少一个提议或问题: 这个项目让我在在数据探索结果出来后的进一步优化,细化以更好的了解数据的规律和结构上理解更加深刻。这个项目中,我的一些分析没有足够深入和细致,比如ProsperRating的排序,做过调整后对于对数字的理解将更加清晰。